ZNAČKOVACÍ JAZYK

Autor: Michal Křen

▲

►

Základní

▲

►

Rozšiřující

Jazyk v korpusové lingvistice formálně definující způsoby, jimiž lze do textů zapisovat ↗metadata. Metadata jsou typicky vkládána přímo do textu, jsou však od něj oddělena speciálními znaky. Zároveň je třeba upozornit na širší použití z.j. v mnoha dalších oblastech mimo korpusovou lingvistiku a nejenom pro anotaci textů; XML (viz dále) se např. používá také pro popis datových struktur.

Nejpoužívanějším z.j. a standardem v této oblasti je XML (eXtensible Markup Language), nástupce obecnějšího, ale příliš složitého standardu SGML (Standard Generalized Markup Language). XML je – stejně jako SGML – vlastně metajazyk, který umožňuje v rámci obecné XML syntaxe definovat vlastní z.j. (takto byl ze SGML odvozen z.j. webových stránek HTML). To se děje pomocí tzv. schémat: DTD (Document Type Definition) n. nověji XSD (XML Schema Definition), které nabízí širší možnosti než DTD.

Schéma formálně definuje strukturu dokumentu (ta musí být vždy hierarchická), použité elementy a vztahy mezi nimi. Jednotlivé XML dokumenty odpovídající různým schématům se tedy mohou výrazně lišit, jednotícím prvkem je použití XML tagů uzavřených mezi znaky < a >. Proto je v jednotlivých oblastech použití XML žádoucí standardizace, tj. používání kompatibilních XML schémat. Pro elektronické texty se často používají formáty odpovídající TEI Guidelines, standardu zveřejňovaného organizací Text Encoding Initiative, běžné jsou ale i proprietární formáty jednotlivých projektů.

Příklad níže ukazuje počáteční část jednoho ze souborů korpusu ↗InterCorp odpovídajícího č. verzi knihy N. J. Mandelštamové Dvě knihy vzpomínek ve formátu XML. Na druhém řádku souboru najdeme odkaz na DTD s definicí struktury celého dokumentu. Tato definice je však pouze formální na rozdíl od následujícího výkladu, který stručně popisuje také význam a motivaci.

Jeden dokument (označený XML elementem doc) odpovídá celému textu (knize) a je dalšími XML elementy hierarchicky strukturován na části dokumentů (div; v publicistice jim odpovídají články, mohou tak být oddělené i jednotlivé kapitoly apod.), odstavce (p) a věty (s). Každý z těchto elementů začíná otevíracím tagem (např. pro věty <s …>) a je uzavřen tagem uzavíracím (</s>), součástí otevíracích tagů jsou navíc atributy a jejich hodnoty v uvozovkách. Element div obsahuje řadu atributů s podrobnými bibliografickými informacemi o textu, všem dosud zmíněným elementům je společný atribut id, identifikátor jednoznačně určující daný element v korpusu.

Dalším elementem je w označující každou jednotlivou pozici vzniklou ↗tokenizací, jeho atributy jsou lemma a morfologická značka jako výsledek (automatické) ↗lemmatizace a ↗tagování. Tyto pozice jsou základní jednotky pro vyhledávání v korpusu odpovídající tokenům: samostatnou pozici v takto označeném textu dokumentu tvoří každý jednotlivý výskyt slovního tvaru, čísla nebo interpunkčního znaménka, které bylo při tokenizaci osamostatněno. Každý w‑element je svým umístěním zařazen do konkrétní věty, odstavce a dokumentu. Elementem i je ohraničena část textu, která byla zapsána kurzívou, a element D označuje místo, kde jednotlivé w‑elementy v původním textu nebyly odděleny mezerou, což umožňuje jeho zpětnou rekonstrukci. Za povšimnutí stojí, že element D je při svém otevření vždy vzápětí uzavřen, což je signalizováno tagem <D/>.

Příklad:

<?xml version='1.0' encoding='utf-8'?>

<!DOCTYPE doc SYSTEM "http://korpus.cz/intercorp/files/intercorp.dtd">

<w lemma="Naděžda" tag="NNFS1-----A----">Naděžda</w>

<w lemma="Mandelštamová" tag="NNFS1-----A----">Mandelštamová</w>

</s>

</p>

<w lemma="kniha" tag="NNFP1-----A----">KNIHY</w>

<w lemma="vzpomínka" tag="NNFP2-----A----">VZPOMÍNEK</w>

</s>

</p>

<i>

<w lemma="okenní" tag="AAFS3----1A----">okenní</w>

<w lemma="tabulka" tag="NNFS3-----A----">tabulce</w>

<w lemma="přilnout" tag="VpQW---XR-AA---">přilnula</w>

<w lemma="ženský" tag="AAFS1----1A----">ženská</w>

<w lemma="začít" tag="VpTP---XR-AA---">začaly</w>

<w lemma="pomalu" tag="Db-------------">pomalu</w>

<w lemma="stékat" tag="Vf--------A----">stékat</w>

<D/>

<w lemma="kdyby" tag="J,-------------">kdyby</w>

<w lemma="pořád" tag="Db-------------">pořád</w>

<w lemma="krajíček" tag="NNIS6-----A----">krajíčku</w>

<D/>

</i>

</s>

</p>

</div>

</doc>

Literatura

Burnard, L. Metadata for Corpus Work. In Wynne, M. (ed.), Developing Linguistic Corpora – a Guide to Good Practice, 2005 (http://www.ahds.ac.uk/creating/).
Harold, E. R. & W. S. Means. XML in a Nutshell, 2004.
TEI Consortium. TEI P5: Guidelines for Electronic Text Encoding and Interchange, 2007 (http://tei-c.org/Guidelines/).

Citace

Michal Křen (2017): ZNAČKOVACÍ JAZYK. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/ZNAČKOVACÍ JAZYK (poslední přístup: 3. 4. 2025)

CzechEncy – Nový encyklopedický slovník češtiny

Provozuje Centrum zpracování přirozeného jazyka

ZNAČKOVACÍ JAZYK

Další pojmy: